大型语言模型(LLM)的最新进展已改变了自然语言处理(NLP)的领域。从GPT-3到Palm,每种新的大型语言模型都在推动自然语言任务的最新表现。除了自然语言的能力外,人们还对理解这种模型(接受大量数据,具有推理能力的培训)也引起了重大兴趣。因此,人们有兴趣为各种推理任务开发基准,并且在此类基准测试中测试LLM的初步结果似乎主要是积极的。但是,目前的基准相对简单,这些基准的性能不能用作支持的证据,很多时候是古怪的,对LLMS的推理能力提出了主张。截至目前,这些基准仅代表了一组非常有限的简单推理任务集,如果我们要衡量此类基于LLM的系统的真实限制,我们需要研究更复杂的推理问题。通过这种动机,我们提出了一个可扩展的评估框架,以测试LLM在人类智能的中心方面的能力,这是关于行动和变化的推理。我们提供的多个测试案例比任何先前建立的推理基准都更重要,并且每个测试案例都评估了有关行动和变化的推理的某些方面。对GPT-3(Davinci)基本版本的初步评估结果,在这些基准测试中显示了Subpar的性能。
translated by 谷歌翻译
长期以来,能够接受和利用特定于人类的任务知识的增强学习(RL)代理人被认为是开发可扩展方法来解决长途问题的可能策略。尽管以前的作品已经研究了使用符号模型以及RL方法的可能性,但他们倾向于假设高级动作模型在低级别上是可执行的,并且流利者可以专门表征所有理想的MDP状态。但是,现实世界任务的符号模型通常是不完整的。为此,我们介绍了近似符号模型引导的增强学习,其中我们将正式化符号模型与基础MDP之间的关系,这将使我们能够表征符号模型的不完整性。我们将使用这些模型来提取将用于分解任务的高级地标。在低水平上,我们为地标确定的每个可能的任务次目标学习了一组不同的政策,然后将其缝合在一起。我们通过在三个不同的基准域进行测试来评估我们的系统,并显示即使是不完整的符号模型信息,我们的方法也能够发现任务结构并有效地指导RL代理到达目标。
translated by 谷歌翻译
尽管许多经常学习自己的表现的许多现代AI系统的令人惊讶的力量,但他们的拒绝性和与人类互动的能力中的问题有重大不满。虽然提出了神经象征性方法等替代方案,但缺乏对它们的内容缺乏共识。通常有两个独立的动机(i)符号作为人类-i-ai交互的语言弗朗卡和(ii)作为一个系统产生的抽象作为ai系统在其内部推理中使用的符号。陪审团仍然是AI系统是否需要在内部推理中使用符号来实现一般情报能力。无论答案是什么,人类AI互动中的(人类理解)符号的需求似乎都非常引人注目。符号,就像情绪一样,可能不会被智力本身如此,但他们对AI系统与我们的互动互动至关重要 - 因为我们既不能关闭我们的情绪也没有我们的符号。特别是,在许多人类设计的域名中,人类将有兴趣提供明确的(符号)知识和建议 - 并期望自己的机器解释。单独的是,AI系统维持与人类的互动符号界面。在这个蓝天纸上,我们认为这一观点,并讨论了需要追求这种类型的人AI互动的研究方向。
translated by 谷歌翻译
在人类和机器人在同一空间中移动的情况下,在执行自己的任务时,移动机器人采取的可预测路径不仅可以让环境感觉更安全,但人类也可以通过避免路径冲突来帮助在空间中导航阻止方式。所以可预测的路径变得至关重要。随着机器人的数量增加,人类预测机器人的路径的认知努力变得无法安全。随着人类的增加,它还使机器人在考虑多个人类运动的同时移动。此外,如果新的人士正在餐馆,银行和医院进入空间 - 他们将不那么熟悉机器人通常采取的轨迹;这进一步增加了沿着路径的可预测机器人运动的需求。考虑到这一点,我们建议最小化机器人的导航图,以获得基于位置的可预测性,这是从机器人的当前位置的可预测性。这是重要的,因为不能预期人类来跟踪机器人的目标和事先行动,除了做自己的任务之外。在本文中,我们定义了基于位置的可预测性的措施,然后呈现并评估爬山算法以最小化机器人运动的导航图(定向图)。其次是我们的人类主题实验的结果,支持我们提出的方法。
translated by 谷歌翻译
在图像分类任务中,深度神经网络通常是脆弱的,并且已知错误分类输入。虽然这些错误分类可能是不可避免的,但不能认为所有失败模式都是平等的。某些错误分类(例如,将狗的图像分类为飞机)可以困扰人类并导致系统中的人类信任丢失。更糟糕的是,这些错误(例如,被错误分类为灵长类动物的人)可以具有可憎的社会影响。因此,在这项工作中,我们的目标是降低差不可估量的错误。为了解决这一挑战,我们首先讨论获取捕获人类期望($ M ^ H $)的类级语义的方法,这是关于哪些类的语义关闭{\ EM与}。我们表明,对于流行的图像基准(如CiFar-10,CiFar-100,Imagenet),可以通过利用人类主题研究或公开的人类策划知识库来容易地获得类级语义。其次,我们建议使用加权损失函数(WLF)以惩罚其无法解释的错误分类。最后,我们表明培训(或微调)现有分类器具有所提出的方法,导致具有(1)的深度神经网络,具有相当的前1个精度,(2)在分销和外部的更具可扩展的故障模式 - 与现有工程相比,分布(ood)测试数据,(3)额外的人类标签的收集成本明显较低。
translated by 谷歌翻译